Wyjaśnienie

Bartosz Ziarkowski

 

W tym tekście postaram się opisać wszystkie funkcje aplikacji i przedstawić rozumowanie, które doprowadziło do opracowania tych, które na pierwszy rzut oka mogą wydawać się niezrozumiałe.

Wprowadzenie

Aplikacja ‘Mapy Rzutów’ powstała w celu przedstawienia danych o rzutach zawodników z Polskiej Ligi Koszykówki za pomocą ich wizualizacji. Ma ona służyć głównie fanom PLK, którzy chcą uzyskać dostęp do większej ilości informacji na temat selekcji rzutowej, skuteczności zawodników. Dane te mogą być oczywiście przydatne również dla osób zajmujących się koszykówką profesjonalnie - trenerów, skautów. Jednak w obecnej formie aplikacji dane te są przedstawione w sposób ogólny, najlepiej przystosowany dla szerokiej grupy odbiorców - fanów.

 

1. Rodzaje map indywidualnych

 

1.1 Mapa Standardowa

 

Na tej mapie rzuty przedstawione są w najprostszy możliwy sposób - jako punkty koloru czerwonego lub zielonego, w zależności od tego, jaki był rezultat rzutu. Mapa standardowa sprawdza się najlepiej w przedstawianiu rzutów zawodnika z jednego meczu. Przy dużej ilości rzutów, np. z całego sezonu staje się nieczytelna. Dlatego w tej wersji aplikacji nie jest ona już podstawową metodą wizualizacji.

 

1.2 Mapa Strefowa #1

 

 

Podstawowa metoda wizualizacji rzutów w aplikacji. Mapa podzielona jest na 16 stref. 7 z nich to strefy rzutów za 3 pkt, 8 to strefy półdystansu i jedna strefa podkoszowa. Przy każdej ze stref (jeżeli zawodnik oddał z niej rzut) podana jest liczba celnych rzutów, liczba rzutów i procent celnych rzutów. W zależności od procentu celnych rzutów każda strefa jest zamalowywana jednym z trzech kolorów - czerwonym, żółtym lub zielonym. W uproszczeniu: czerwony oznacza skuteczność poniżej średniej, żółty średnią skuteczność, zielony skuteczność powyżej średniej. Więc w sytuacji, gdy skuteczność z jednej ze stref wynosi średnio 32%, najłatwiejszym rozwiązaniem wydaje się uznać każdego kto rzuca ze skutecznością mniejszą za słabszego, z tą samą za przeciętnego, a tego z wyższą za lepszego. Przy takiej metodzie otrzymalibyśmy bardzo mało wyników uznanych za przeciętne, przez co moglibyśmy uznawać skuteczność wyższą o zaledwie 0.5% za świadectwo posiadania lepszej umiejętności rzutu z danego miejsca na boisku. To samo mogłoby wydarzyć się w drugą stronę. Aby uniknąć takiej sytuacji, należy ustalić jakiś próg.

Za ten próg uznałem 2%. Oznacza to, że jeżeli średnia skuteczność ze strefy wynosić będzie 35% to za dolny próg przeciętnej skuteczność będzie wynosił 33%, a górny próg 37%.

 

1.3 Mapa Strefowa #2 (szczegółowa)

 

 

Mapa ta podzielona jest na małe strefy. Każda z nich jest przedstawiana w kształcie kwadratu. Jego kolor zależy od różnicy skuteczności rzutów zawodnika od średniej skuteczności. Rozmiar jest zależny od ilości rzutów oddanych z danej strefy przez zawodnika relatywnie od ilości rzutów oddanej z innych stref przez tego samego zawodnika.

Ten rodzaj mapy zdecydowanie nie jest najłatwiejszym w interpretacji. Przeszkadza w niej głównie ilość stref i częste znaczące różnicę pomiędzy sąsiednimi strefami. Przez to trudne może być dojrzenie trendów tzn. z których pozycji zawodnik rzuca najczęściej czy najskuteczniej.

Jednak przy bardziej szczegółowym spojrzeniu np. na samą strefę podkoszową może wskazać w niektórych przypadkach, z której strony boiska w tej strefie zawodnik jest skuteczniejszy. Tego nie da się dostrzec na Mapie Strefowej #1.

W skrócie ta mapa może być bardzo przydatna, ale należy być bardzo uważnym przy jej interpretacji.

 

1.4 Mapa Cieplna

 

Mapa cieplna wskazuje miejsca na boisku, z których zawodnik oddał najwięcej rzutów. Nie wymaga ona dokładniejszego opisu. Należy jedynie pamiętać, aby używać jedynie w sytuacji, w której chcemy poznać najczęstsze miejsca rzutów zawodnika, a nie te najskuteczniejsze.

 

1.5 Mapa asysty

 

 

Na mapie tej jako punkty zaznaczone są miejsca rzutów po asystach danego zawodnika. Punkty nie wskazują miejsca, z którego podana została piłka. Możliwa jest zmiana wyświetlanych rzutów poprzez zaznaczenie lub odznaczenie zawodników w polu wyboru umiejscowionym pod mapą.

Dla ułatwienia interpretacji mapy (usunięcia zbyt dużej liczby wyświetlanych rzucających), na mapie wyświetlani są tylko rzucający, do których dany zawodnik asystował 5 lub więcej razy. Maksymalna ilość rzucających wyświetlanych na mapie to 10.

 

2. Pozostałe wizualizacje

 

2.1 Wykres słupkowy skuteczności

 

 

Ten wykres ukazuje ilość rzutów trafionych (kolor zielony) i oddanych (kolor szary) z pięciu stref. Nie wymaga on szczegółowego wytłumaczenia.

 

2.2 Wykres pudełkowy statystyk rzutowych

 

 

Na tym wykresie można zaobserwować wartość pięciu statystyk rzutowych (xValue, % Zajętych Stref 3pt, Spacing Rating, % FGM asystowanych, eFG%) w odniesieniu to reszty wartości. W pudełkach pierwsza linia od dołu do pierwszy kwartyl (określa wartość, poniżej której położonych jest 25% obserwacji), druga linia to mediana (określa wartość, poniżej której położonych jest 50% obserwacji), a trzecia to trzeci kwartyl (określa wartość, poniżej której położonych jest 75% obserwacji).

 

2.3 Porównanie skuteczności

 

 

Poziomy wykres słupkowy przedstawiający porównanie skuteczność z pięciu stref dla dwóch wybranych zawodników. Dla każdej ze stref wyświetlane są wyniki dwóch graczy. Jednak jeżeli zawodnik osiągnął 0% skuteczności z którejś ze stref, to wtedy wyświetlane jest jedynie słabo widoczne jego imię i nazwisko.

 

2.4 Porównanie statystyk rzutowych

 

 

Do porównywanie pięciu statystyk rzutowych dla dwóch zawodników wykorzystywany jest wykres radarowy. Wykres tworzy punkty dla każdej statystyki w odniesieniu do reszty obserwacji (im dalej punkt od środka, tym lepsza wartość statystyki), a następnie łączy je liniami.

Wykresy radarowe są dalekie od ideału. Potrafią być mylące i zdaniem wielu są wręcz bezużyteczne, gdyż ich interpretacja jest bardzo trudna. Ludzkie oko skupia się na powierzchni zajmowanej przez jedną figurę (połączenie punktów liniami dla jednego zawodnika), a ta może być różna w zależności od ustawienia kolejności statystyk.

Z tego powodu figury nie są wypełnione kolorami, ale to i tak nie zmienia faktu, że interpretacja tego wykresu może być trudna.

Najlepszym sposobem jest zapewne spojrzenie kolejno na każdą z pięciu statystyk i indywidualne ich porównanie. Bez wyciągania daleko idących wniosków na podstawie powierzchni wykresu, jaką pokrywają dani zawodnicy.

Celem tej wizualizacji nie jest wykorzystanie pięciu statystyk do wskazania, który zawodnik jest ogólnie lepszym strzelcem. Celem jest znalezienie różnic oraz podobieństw pomiędzy tym, jak rzucają zawodnicy.

 

3. Statystyki rzutowe

 

3.1 Procent Zajętych Stref 3pt

 

Bardzo prosta statystyka. Otrzymuje się ją za pomocą obliczenia (Ilość zajętych stref 3pt przez zawodnika/ Ilość stref 3pt). Należy jednak mieć na uwadze, że za strefy uznaje się tutaj te małe kwadraty z Mapy Strefowej #2.

 

3.2 Spacing Rating

 

W obliczeniu Spacing Rating wykorzystuje się statystykę Procent Zajętych Stref 3pt. Mnoży się ją przez procent z tych zajętych stref, z których zawodnik rzucał powyżej średniej. W założeniu więc ta statystyka nagradza najbardziej tych zawodników, którzy oddają rzuty z największej części boiska położonej za linię trzech punktów i rzucają z tych miejsc skuteczniej niż reszta.

Oczywiście nie oznacza to, że ci zawodnicy najlepiej rozciągają defensywę rywali. Wydaje się, że to właśnie najskuteczniejsi strzelcy potrafiący rzucać skutecznie z większości miejsc za linią 3pt powinni najbardziej przyciągać do siebie obrońców. Ale w rzeczywistości to założenie nie musi być wcale prawdziwe, a już na pewno poza skutecznością i uwagą obrońców nie zachodzi perfekcyjna korelacja. Dlatego do Spacing Rating należy podchodzić bardzo ostrożnie. Może być to wartościowa statystyka, ale daleko jej do ideału, więc nie zalecałbym jej użycia w celu formowanie bardzo pewnych przekonań na temat umiejętności zawodnika do rozciągania defensywy rywali (krócej - spacingu).

Najlepszym sposobem na określenie umiejętności spacingu zawodnika wydaje się ten z wykorzystaniem ‘tracking data’ (przepraszam, ale nie jestem w stanie znaleźć dobrego odpowiednika tego wyrażenia w języku polskim). Jednak publiczna dostępność takich danych dla PLK (oraz innych lig europejskich) w najbliższej przyszłości jest bardzo mało prawdopodobna, więc nie ma sensu zagłębiać się w szczegóły.

 

3.3 Oczekiwana wartość rzutu (xValue)

 

Statystyka xValue jest z założenia prosta ale dobrze ukazuje selekcje rzutową zawodnika. Aby dobrze ją zrozumieć spójrz na poniższy przykład.

 

Zawodnik A oddaje rzut z półdystansu (blisko linii 3pt) i trafia.

Zawodnik B oddaje rzut z lewego narożnika (3pt) i nie trafia.

Który z zawodników podjął lepszą decyzję?

 

Poprawna odpowiedź (zakładamy, że umiejętności rzutowe tych zawodników są takie same) to ‘Zawodnik B’.

Może się to wydawać dziwne, przecież to pierwszy z zawodników oddał celny rzut. Jednak nie powinno to mieć znaczenia przy ocenie takiej decyzji. Spójrzmy na to od strony oczekiwanej wartości rzutu.

 

Zawodnik A oddaje rzut którego celność średnio wynosi 36%. Jeżeli jest on celny nagrodą są 2 punkty.

Zawodnik B oddaje rzut którego celność średnio wynosi 34%. Jeżeli jest on celny nagrodą są 3 punkty.

Tak więc:

Oczekiwana wartość rzutu Zawodnika A = 36%*2 = 0.72

Oczekiwana wartość rzutu Zawodnika B = 34%*3 = 1.02

 

Jak więc widać to drugi zawodnik podjął lepszą decyzję, gdyż oczekiwana wartość jego rzutu jest wyższa.

To proste obliczenie doprowadziło do znaczącego wzrostu liczby rzutów za trzy punkty w ostatnich latach. Nie oznacza to jednak, że każdy rzut za dwa punkty jest gorszy od tego za trzy. Spójrzmy na rzuty ze strefy podkoszowej. Średnia skuteczność rzutów z tej strefy wynosi 60%. Mnożąc to przez 2 otrzymujemy oczekiwaną wartość 1.2. Jest ona wyższa niż ta dla rzutów za 3 pkt z narożnika.

Mam nadzieję że wytłumaczyenie jest zrozumiałe. Przejdźmy teraz do kwestii technicznych. W jaki sposób określam prawdopodobieństwo danego rzutu?

Wykorzystuje do tego model regresjii logistycznej. Zmienną niezależną jest w nim odległość rzutu od kosza.

Należy mieć na uwadzę to, model ten nie bierze pod uwagę kilku rzeczy, takich jak: pozostały czas na zegarze rzutowym, odległość najbliższego obrońcy, ilość dryblingów przed oddaniem rzutu. Wykorzystanie takich informacjii poprawiło by dokładność modelu.

Niestety dane do których mam dostęp nie zawierają takich informacjii.

 

3.4 Procent FGM asystowanych

 

Wzór tej statystyki prezentuje się następująco: Ilość FGM asystowanych / Ilość FGM

Ma ona wskazywać to jaką część rzutów zawodnik kreuje samodzielnie, a jaką kreują dla niego inni zawodnicy.

 

3.5 eFG%

 

Statystyka podobna do zwyczajnego FG%. Jednakże przywiązuję większą wagę do rzutów za 3 punkty. Wzór:

(FGM + 0.5*3PFGM)/FGA

 

4. Wyszukiwanie podobnych zawodników

 

4.1 Wspólne Strefy

 

Ta metoda obliczenia podobieństwa zawodnika wykorzystuję strefy z Mapy Strefowej #2. Wzór wygląda następująco:

Ilość wspólnych stref dwóch zawodników / Ilość wszystkich zajętych stref przez dwóch zawodników

 

4.2 Dystans 2D

 

Ta metoda obliczenia podobieństwa zawodnika również wykorzystuję strefy z Mapy Strefowej #2. Dla każdego zawodnika oblicza ilość zajętych stref. Następnie wyświetla te wyniki w dwumiarowej przestrzeni z oczekiwaną wartością rzutu. Dane są standaryzowane. Wygląda to tak:

 

 

Na tym wykresie, aby zwiększyć przejrzystość umieściłem jedynie dwudziestu losowo wybranych zawodników.

Załóżmy, że zawodnik, dla którego chcemy znaleźć podobnych to A. Cel (prawa strona wykresu). Obliczamy więc dystans pomiędzy nim a wszystkimi zawodnikami. Najbardziej podobni zawodnicy według tej metody to ci, którzy znajdują się najbliżej wybranego zawodnika (tutaj A. Waczyński i A. Mielczarek).

Istnieje kilka sposobów na obliczanie dystansu pomiędzy dwoma punktami. W tym wypadku jest to odległość euklidesowa.

 

4.3 Średnia Pozycja

 

Ta metoda łączy dwie opisane wcześniej. Tworzy dwa rankingi podobnych zawodników dla dwóch metod i oblicza średnie miejsce w tych rankingach.

 

5. Kreator składów

 

Kreator składów pozwala na przygotowanie dwóch map rzutów dla składu złożonego z pięciu zawodników. Kreator nie jest obecnie w ostatecznej formie. W tej chwili jest ograniczony jedynie do przygotowania map, ale możliwości jest o wiele więcej, więc w przyszłości powinien być rozwijany.

Dwie mapy, które obecnie przygotowuje to: mapa najskuteczniejszych ze stref oraz mapa najczęściej rzucających ze stref. Zacznijmy od tej pierwszej.

 

 

Obliczanie najskuteczniejszych dla danej strefy zaczyna się od wybrania zawodników, którzy oddali z niej przynajmniej 20 rzutów. Następnie spośród tej grupy, która oddała więcej niż 20 rzutów wybiera się tego zawodnika, który miał najwyższą skuteczność.

 

 

Druga mapa wskazuje z którch części boiska wybrana piątka zawodników rzucała najczęściej. Dla każdej strefy wybiera zawodnika, który oddał z niej najwięcej rzutów. Mapa najczęściej rzucających ma za zadanie wskazać, z których miejsc na boisku najczęściej rzucaliby zawodnicy z wybranej piątki.

 

6. Na koniec

 

Jeżeli po przeczytaniu wyjaśnienie wciąż nie rozumiesz którejś z funkcjii aplikacji to napisz do mnie. Zrób to również, jeżeli masz sugestie co do możliwych poprawek, nowych funkcji. Linki do profilu na twitterze oraz mój adres e-mail znajdują się w prawym górnym rogu aplikacji. Jest tam też również odnośnik do kodu aplikacji na Github.